\chapter{总结与展望}\label{chap:conclusion}

通过对目前多模态融合领域文章的调研，我们可以发现：

\begin{itemize}
    \item 目前多模态融合研究主要涉及视觉模态和文本模态的双模态。
    \item 目前主流的工作都使用了Transformer为主要架构，采用预训练的学习方式，
    在模型上主要分为单流模型和双流模型两种。
    \item 多模态融合预训练在许多单模态和多模态任务上都取得了成功，
    具有较好的使用前景。
    \item 目前的研究表明，训练使用的数据量会对多模态融合模型的效果产生显著影响，
    提升数据量可以得到很好的效果。
\end{itemize}

基于目前的研究，在多模态融合领域还有很多可以开展的工作。
例如目前的多模态任务几乎都集中于视觉模态和文本模态，
如果结合利用其它模态数据是一个亟待研究的方向。
同时，目前的研究都只涉及两个模态的融合，在模态数更多时应该如何融合也很值得研究。
同时，在模型优化上，虽然通过增大训练数据量和模型大小可以取得明显的提升，
但是在部分场景可能不能很好的提升数据量的大小或是使用很大的模型，
需要考虑在保持数据规模和模态编码网络大小不增大的情况下如何提升预训练效果。